Vamos verificar a existência de tipos de filmes quanto a mediana da idade dos homens e das mulheres, quantidade de homens, quantidade de mulheres. Será que existem grupos que definem comportamentos comuns para os filmes disponibilizados? Utilizaremos os dados disponíveis no seguinte endereço: https://github.com/matthewfdaniels/scripts.
Neste post iremos utilizar 4 variáveis que foram calculadas a partir dos dados disponibilizados pelo endereço do Github acima. As variáveis são as seguintes: mediana da idade dos homens e mulheres, a quantidade de homens e de mulheres que participaram dos filmes.
Como existiam valores nulos na variável ‘age’(idade), filtrei os dados retirando-os, pois não faz sentido para a análise utilizar personagens com idade nula.
Antes de realizar o agrupamento dos filmes, precisamos decidir qual a melhor quantidade de grupos pela qual os filmes serão agrupados, para que eles sejam realmente o mais semelhantes entre si dentro do seu grupo.
De acordo com o gráfico acima é possível verificar que a melhor quantidade de grupos será 4, pois a partir do quinto ponto do gráfico a distância para de crescer.
Depois de ter definido o melhor número de grupos para os filmes, chegou a hora de realizar o agrupamento de fato e analisar cada grupo para assim conseguir nomeá-los de acordo com suas características.
Verificando o gráfico acima podemos observar grupos que caracterizam os filmes existentes nos dados, olhando a direção em que as linhas dos filmes cruzam cada uma das variáveis.
No gráfico abaixo podemos ver a visualização em duas dimensões da redução de dimensionalidade das 4 dimensões mencionadas no ínicio desse post.
As variáveis PC1 e PC2 corresponde as 4 variáveis originais, elas são criadas a partir da correlação entre as variáveis originais, utilizando-se a técnica PCA.
Analisando o gráfico acima age_m e age_f variam quando os valores são alterados no eixo horizontal (direção de PC1), não variam tanto em relação há mudanças de valores no eixo vertical (direção de PC2). Já as variáveis n_m e n_f estão bem mais relacionadas com a variável PC2 do que com a PC1, ou seja, elas variam principalmente quando há modificações nos valores do eixo vertical.
Também podemos ver a informação do gráfico mostrando PC1 e PC2 como funções das 4 variáveis, da seguinte forma:
## PC age_f age_m n_f n_m
## 1 1 -0.6765686 -0.6975487 -0.1075330 -0.2100412
## 2 2 0.1478278 0.1533945 -0.7826054 -0.5849323